Программный фреймворк для оптимизации гиперпараметров тематических моделей с аддитивной регуляризацией
Аннотация:
Предмет исследования. Обработка неструктурированных данных, таких как тексты на естественном языке, является одной из актуальных задач при разработке интеллектуальных продуктов. В свою очередь, тематическое моделирование как метод работы с неразмеченными и частично размеченными текстовыми данными активно используется для анализа корпусов документов и создания векторных представлений. В связи с этим особенно важно обучение качественных тематических моделей за короткое время, что возможно с помощью предложенного фреймворка. Метод. Разработанный фреймворк реализует эволюционный подход к оптимизации гиперпараметров моделей с аддитивной регуляризацией и высокими результатами по метрикам качества (когерентность, NPMI). Для уменьшения вычислительного времени представлен режим работы с суррогатными моделями, который обеспечивает ускорение вычислений до 1,8 раз без потери качества. Основные результаты. Эффективность фреймворка продемонстрирована на трех наборах данных с разными статистическими характеристиками. Получены результаты, превосходящие аналогичные решения в среднем на 20 % по когерентности и 5 % по качеству классификации для двух из трех наборов. Создана распределенная версия фреймворка для проведения экспериментальных исследований тематических моделей. Практическая значимость. Полученный фреймворк может быть использован пользователями без специальных знаний в области тематического моделирования, благодаря выстроенному пайплайну работы с данными. Результаты работы могут применяться исследователями для проведения анализа тематических моделей и расширения функционала.
Ключевые слова:
Постоянный URL
Статьи в номере
- Характеризация голографического фотополимера Bayfol HX в инфракрасной области спектра
- Исследование реакции кровеносных сосудов на локальный нагрев методом визуализирующей фотоплетизмографии
- Передача 3D голографической информации по радиоканалу методом, близким к SSB
- Влияние параметров анодирования на оптические свойства нанопористого оксида алюминия, сформированного поверх островковой пленки серебра
- Анализ точности оценивания состояний асинхронного электропривода алгоритмами Люенбергера и Калмана
- Метод оптимизации структуры в иерархических распределенных системах управления
- Метод идентификации параметров синусоидального сигнала с неизвестной переменной амплитудой
- Улучшение процесса автоматической стабилизации температуры в криовакуумной установке
- Исследование ударных свойств и износостойкости гибридных композитов Al6061 (SiC + Al2O3) и Al7075 (SiC + Al2O3)
- Вычислительные методы повышения быстродействия дискретного вейвлет-преобразования на базе FPGA
- Диалоговая система на основе устных разговоров с доступом к неструктурированной базе знаний
- Определение аналитических моделей динамических систем в форме дифференциальных уравнений на основе многокритериальной эволюционной оптимизации
- Вероятностный критерий оценки предсказуемости временных рядов
- Ценностно-ориентированное моделирование принятия экономических решений в условиях нестационарности внешней среды
- Методика организации и проведения исследования по оценке потребительской способности
- Автоматизированный кластерный анализ коммуникативных стратегий образовательных telegram-каналов
- Компьютерное моделирование немарковских процессов на основе принципа баланса «комплексных вероятностей»
- Метод объективизации значений весовых коэффициентов для принятия решений в многокритериальных задачах
- Оценка границ применимости и методов модуляции ближнепольной магнитной связи
- Численно-аналитическое моделирование пропульсивного крыла и фюзеляжа аэротакси
- Применение обратной связи переменной точности для повышения быстродействия контура тока в инверторах на базе GaN-транзисторов
- Моделирование диффузионных процессов при электротермической обработке реакционных тиглей системы железо–олово